Ideogram 4.0
https://gyazo.com/b282bac27265443a567d4e3e462d71c2
最終層だけではなく、13個の中間層のhidden statesを結合してDiTへ渡す
計算式自体は通常のCFGと同じ
ただし unconditional 側では、空プロンプトを与える代わりにテキストトークン自体を除去する
そもそもCFGを良く理解していないことに気づくnomadoor.icon ChatGPT.iconCFGの本質は、条件つき予測と条件なし予測の差分を使って、条件に由来する成分だけを強めることにある
このとき unconditional 側は「自然画像のprior」あるいは「基準ベクトル」の役割を担っており、必ずしもテキスト情報を持つ必要はない
「空プロンプト」も無条件ではなく、“空文字という条件”になっているので、このACFGではそれを切り分けている
構造化JSONプロンプト
FIBOが撮影シーン全体を記述するためのJSONに近いのに対し、Ideogram 4.0はDTP寄りで、文字・色・BBOX・レイアウト指定を細かく扱うためのJSONという感じ
とはいえ、BBOXや色指定が専用の制御情報として入力されているわけではなく、単にJSON文字列をテキストエンコーダが読み、それをDiTに渡しているだけなので、Reve 2.0のように本質的にレイアウト構造を前段で作っているものとは違う ある程度形式に従う必要がある
Magic Prompt
LLMで自然文を構造化JSONへ変換する
ideogram-4-v1 APIでの提供(無料)
ただ、システムプロンプトは公開されているので好きなLLMを使える
NSFWプロンプトは基本的に弾かれる
ライセンス
使う